本文是学习GB-T 13725-2019 建立术语数据库的一般原则与方法. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们
本标准规定了建立术语数据库(简称"术语库")的建设原则、术语库的类型和信息流程、术语库系统
的基本要求、建立术语库的基本过程、术语库的生成和使用、术语库系统的管理与维护、术语库间信息资
源共享。
本标准适用于术语库的研究、开发、维护及有关管理工作。在其他涉及术语数据处理的工作中也可
参照使用。
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 10112 术语工作 原则与方法
GB/T 15237.1—2000 术语工作 词汇 第1部分:理论与应用
GB/T 16786—2007 术语工作 计算机应用 数据类目
GB/T 17532—2005 术语工作 计算机应用 词汇
GB/T 18155 术语工作 计算机应用 机器可读术语交换格式(MARTIF) 协商交换
GB/T 15237.1—2000、GB/T 16786—2007、GB/T 17532—2005
界定的以及下列术语和定义适用
于本文件。为了便于使用,以下重复列出了GB/T15237.1—2000、GB/T17532—2005
中的一些术语和
定义。
3.1
术语 term
在特定专业领域中一般概念的词语指称。
[GB/T 15237.1—2000,定义3.4.3]
3.2
术语数据库 terminological database
存储术语信息的数据库。
注:改自 GB/T 17532—2005,定义7.6。
3.3
数据元 data element
在一定的上下文中具有不可分割的数据单元。
[GB/T 17532—2005,定义7.11]
3.4
数据字段 data field
为特定的数据元而保存在一个记录中的变长或定长的部分。
GB/T 13725—2019
[GB/T 17532—2005,定义7.12]
3.5
数据类目 data category
数据元类型 data element type
关于给定数据字段的类型说明。
[GB/T 17532—2005,定义7.14]
3.6
术语条目 terminological entry
术语信息集合中所包含的关于一个概念相关的术语数据。
[GB/T 17532—2005,定义3.22]
术语库可分成3级:
a) 国家标准化术语库,具有管理我国标准化术语的功能;
b)
专业领域术语库,应明确专业分工,界定范围,搞好协调工作,避免重复、遗漏和浪费;
c) 基层术语库,有关单位可根据工作需要建立基层术语库。
术语库的建设应遵循国家有关信息系统建设的规定,做好与其他术语库的协调,实现信息交换与资
源共享。
突出概念体系的合理性与层次性,并包括概念的严格定义,且定义具有权威性的术语库。
根据需要包含两种或两种以上语言的术语对应词,含有较多的语言学信息(如词性、语境、用例等)
的术语库。
作为专家系统、知识库系统、机器翻译系统等的组成部分,为满足各种特定目标要求而建立的术
语库。
根据实际需要进行设计的术语库,如通用词库等。
GB/T 13725—2019
术语库系统信息流程如图1所示。
style="width:11.10694in;height:3.76667in" />
图 1 术语库系统信息流程图
术语信息可以来自国家标准、行业标准及其他标准文献,也可以来自权威性的辞典、百科全书及其
他工具书和文献;或者是由专家、学者及用户提供的对新概念的定义和指称,还可以通过与其他术语库
联网、交换术语数据及记录载体等方式获得。
按照已定的标准格式或规则,对从各种途径获取的术语信息进行预处理和加工。
原始术语信息经规范化处理后,通过输入设备,例如键盘、文字识别设备、语音识别设备等,输入到
术语库系统。
术语库系统对输入信息(数据)进行处理后,存入存储器,可以方便地存取、检索、修改、删除、更新和
补充数据。
通过联网、交换数据记录载体等方式实现与其他术语库系统信息资源交换、共享。
用户通过输出设备,例如屏幕显示器、打印机、光盘、移动存储、网络服务器等使用术语库中的信息。
术语库的用户包括:标准化工作管理者、标准的制修订者、翻译工作者、辞书编纂人员、编辑人员、教
育工作者、语言学工作者、科技工作者、生产及管理人员、学生以及其他用户。
GB/T 13725—2019
应对各方面的用户需求进行调查分析,并依据大多数用户对术语库功能、性能、数据等方面的要求,
在充分考虑社会效益和经济效益的前提下开发术语库。术语库的开发应符合实际使用的需要。
应对术语库开发中所涉及各种学科的理论与技术进行充分的研究,运用系统工程的方法在科学的
基础上开发术语库。
系统应简单易学,使用方便。
应选择技术上先进,经济上合理的设计方案。
硬件配置、软件的选择和开发保证术语库具有高可靠性。
系统维护应做到以下方面:
a) 为使系统保持良好工作状态和防止事故于未然而进行的预防性维护;
b) 为克服故障而进行的纠错性维护;
c) 为使软件产品能够在改动的环境下继续使用而进行的适应性维护;
d) 为改善性能而进行的完善性维护等。
系统安全应做到以下方面:
a) 按信息系统安全技术要求进行系统的硬件设计和安装;
b) 制定保证术语库系统安全的分级管理守则;
c) 对各类用户在不同条件下对各种范围内的数据的存取权限做出规定;
d)
能防止数据交换过程中可能出现的计算机病毒侵入,并具备检查和清除病毒的有效措施;
e) 根据需要对特殊数据的保密提供保护机制和保密措施。
能根据需求的变化,易扩充或修改系统功能。
6.2.1.1
术语库计算机系统应根据需要能支持多种语言、文字、符号、公式、图形、图像、声音等多媒体信
GB/T 13725—2019
息等。
6.2.1.2
大型术语库系统能与国内外其他大型术语库及世界上主要术语库实现信息资源共享。
对硬件有如下基本要求:
a) 应根据系统设计要求优选适用的计算机;
b) 能较容易地实现软硬件之间的兼容配套;
c) 应有足够的数据存储空间;
d) 数据处理速度、系统输入输出能力应满足业务类型和用户数量等的需要;
e) 应维修方便;
f) 应具有安全性和高可靠性;
g) 应具有联网功能;
h) 应具有较强的可扩展能力,能方便地进行升级。
对软件有如下基本要求:
a)
应完整、配套,形成系统。包括系统软件、数据库管理软件、通信控制软件、网络管理系统、安全
防护软件、保密及其他应用软件;
b) 应具有较好的灵活性和可移植性,对运行环境有较强的适应能力;
c) 应具有较强的可扩充能力,能够根据需要升级;
d) 应具有较好的人机交互能力;
e)
数据库管理系统功能强,能方便地进行数据存取、检索、补充、修改和删除等;
f) 应具有较好的安全性和保密性;
g)
应使用国家标准和有关国际标准所规定的字符集;应尽可能使字符集可扩充,使特殊字符可直
接访问,并根据需要考虑多语种的兼容处理问题。
根据需要,可支持实现先进的计算机网络通信,支持开放系统互联,能实现通过网络的数据库存取。
6.3.1.1 正确性
入库术语数据应是经核查正确无误、有效的。
6.3.1.2 一致性
应排除由于术语数据来源不同而产生的不一致。
6.3.1.3 完整性
应保证术语数据元、数据类目和数据结构的完整。
6.3.1.4 独立性
数据应独立于计算机系统,且独立于存储方法和存取方式。
GB/T 13725—2019
6.3.1.5 适时性
应及时更新术语数据。
6.3.2.1 数据类目选择范围
数据类目应首先从以下五类中选择:描述术语的数据、描述概念的数据、描述概念体系的数据、用于
管理的数据、表示文献的数据。
6.3.2.2 描述术语的数据
描述术语的数据主要包括:
a) [汉语]主条目术语;
b) 简称(缩略语);
c) 全称(当主条目术语为简称时);
d) 同义词;
e) 近义词;
f) 反义词;
g) 其他语种对应词;
h) 符号;
i) 词类;
j) 其他语法信息;
k) 注音;
1) 术语的注释;
m) 参见;
n) 主要学科领域(代码)。
6.3.2.3 描述概念的数据
描述概念的数据主要包括:
a) 概念的定义;
b) 概念的描述;
c) 语境;
d) 示例、标注、公式、表格、图形、图像、影视等。
6.3.2.4 描述概念体系的数据
描述概念体系的数据主要包括:
a) 叙词(叙词表);
b) 上位词;
c) 广义词(如果上位词不清楚);
d) 下位词;
e) 狭义词(如果下位词不清楚);
f) 同位词;
g) 整体词;
GB/T 13725—2019
h) 部分词。
6.3.2.5 用于管理的数据
用于管理的数据主要包括:
a) 记录标识;
b) 语种代码;
c) 文献来源代码;
d) 记录的生成日期;
e) 数据修订日期;
f) 责任者代码;
g) 使用的地域限定;
h) 标准化或非标准化;
i) 现行用法或过时用法;
j) 优先或许用或拒用或被取代;
k) 行业用语(行业范围);
1) 机构内部的用语;
m) 可靠性代码。
6.3.2.6 表示文献的数据
表示文献的数据主要包括:
a) 文献的类型(如标准、辞典、百科全书、手册等);
b) 文献信息:
1) 著(作、编)者;
2) 标题;
3) 出版日期;
4) 出版机构;
5) 出版物的卷期号;
6) 标准编号;
7) 术语信息在文献中的页码。
6.3.2.7 其他数据项
应考虑到不同类型的术语库要求不同的数据类目,不同的用户群(如学生、翻译、学科领域的专家)
需要不同类型的信息。
一个多功能的术语库应具备灵活性,允许增加新的数据类目。
6.3.3.1 目 标
在进行数据分析时,应建立起数据结构模型。
6.3.3.2 术语数据元之间的关系
术语数据元可以是面向概念的,可重复的或不可重复的。它们可以由其他数据元组合而成。
术语库中词条的数据元可以是与概念相关的信息(如定义、描述等),也可以是与术语相关的信息
(如语法信息、语境等),如图2所示。
GB/T 13725—2019
style="width:8.1in;height:4.18056in" />
图 2 与概念有关的和与术语有关的信息
6.3.3.3 术语的多语种对应关系
同一概念的术语在不同的语种中的对应关系有以下三种类型:
a)
完全对应:概念体系是在两个语种中独立地建立起来的,术语所表达概念的定义以及概念在概
念体系中的位置在两个语种中完全相同;
b)
不完全对应:当概念在两个语种中不能完全对应,但其差别能用两个概念的若干术语相互翻译
时,则应将这些术语并列在该词条下,并加注解指出差别和相似性;
c)
完全无对应:当一个概念在另一语种中无对应时,可以翻译定名(或空缺),但应在术语库中特
别标记。
6.3.3.4 数据结构的描述
可使用实体-关系图(E-R 图)描述数据结构,见附录 A。
术语库实体-关系图应将每个数据元独立地分开,并描述术语库中不同数据元之间的逻辑联系。
6.3.3.5 数据结构的修改
数据结构应可进行如下修改:
a) 增加一个字段;
b) 增加一个层次结构;
c) 改变字段的顺序;
d) 细分和(或)合并字段;
e) 改变字段名;
f) 改变字段的数据类型;
g) 其他修改。
入库概念、定义和术语应符合GB/T 10112 的各项规定。
术语应从具有权威性的文献中选择并经有关专家审定。
GB/T 13725—2019
术语的选择和收录应系统地进行,并保证概念体系的完整性。
审核入库术语时,应避免一个专业领域内的一个概念用多个术语表达,或一个术语指称多个概念,
尤其要避免同一概念的定义不一致。
服务方式应方便用户使用,建库时可根据需要加以选择。可包括:
a) 查询、检索;
b) 打印;
c) 下载;
d) 排版;
e) 缩微;
f) 互联网、云服务;
g) 手机、平板电脑等移动终端应用程序;
h) API 调用;
i) 其他可用的数据交换方式。
术语库开发的基本过程及需备文件见表1。
表 1 术语库开发的基本过程及需备文件
|
|
|
|
|||
---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
||||||
|
||||||
|
GB/T 13725—2019
在对用户需求进行广泛和重点的调查、分析基础上,从需要和现实可能两个方面提出项目申请书、
用户需求报告、可行性研究报告,由相关部门批准后,形成任务书(合同书、协议书),组成项目工作组(机
构),正式开始该系统开发工作。
项目确定后,应首先制定一个详细的工作计划,编制工作计划书。内容包括:
a) 该项目进展的各阶段目录:
b) 各阶段工作安排及完成日期;
c) 工作分工等。
7.3.1 需求分析应详细、具体,并形成必要的工作文件。
7.3.2
详细地调查研究术语数据需求,收集、挑选和登录原始资料,确定收录术语的范围(可按阶段安
排),明确对数据类目和数据结构的要求、数据处理的要求、输入输出的要求等;完成数据要求说明书和
功能要求说明书。
7.3.3
根据数据需求分析,提出对系统功能、性能的要求,包括硬件要求、软件要求、质量要求等,明确
待开发系统的目标。分析现有条件,提出待购置或开发软、硬件纲目表,并提出对原有系统进行改造与
扩充的建议方案,完成软、硬件要求说明书。
建立术语库的实体-关系图,并编制概念模式设计说明书。
根据实体-关系图和所使用的数据库管理系统的类型,确定数据库的逻辑模式,并编写逻辑模式设
计说明书。
根据数据库管理系统所提供的功能,将逻辑模式映射到系统实现上,并编写物理模式设计说明书。
根据术语库系统的要求完成程序编制工作,并编写程序编制说明书。
根据确定的数据类目和数据结构编制录入规则,设计录入工作单,选择、分析、整理、审定入库的术
语、定义、描述、示例等。根据需要和可能选择外文对应词,必要时,应先在汉语和选用的其他语种中建
立概念对应关系,完成数据规范化预处理。
GB/T 13725—2019
对硬、软件进行安装与调试,对系统的功能、性能、质量等进行检验。对存在的问题做出改进设计,
完善系统后建立模拟库,并试运行。
对拟入库术语信息进行规范化处理后,完成大规模数据录入。
审查与验收应当有计划、有组织地进行。
7.6.2.1 基本要求
审查应贯穿于术语库建设全过程的各个阶段,伴随着各个工作步骤进行。
7.6.2.2 审查人员
审查人员构成应考虑以下因素:
a) 与术语库相关的术语学、标准化、计算机、语言学等方面的专家;
b) 用户。
7.6.2.3 审查方式
审查方式包括:
a) 文件审查;
b) 会议审查;
c) 系统测试。
7.6.2.4 审查内容
应按第6章的各项要求及其他有关国家标准,审查7.1~7.4相应的工作项目。
7.6.2.5 审查报告
审查结果应有书面记录,包括:
a) 审查时间;
b) 审查方式;
c) 审查内容;
d) 审查人员;
e) 审查结论性意见等。
应对审查中发现的问题提出或责成有关人员提出处理意见。必要时,进行设计改进或采取相应措
施后再次审查,或指派专人进行追踪审查。
GB/T 13725—2019
7.6.3.1 基本要求
术语库建成后,设计开发单位应提出验收申请报告,由相关单位组织验收。
7.6.3.2 人员配置
正式的验收应公开进行。主要组织者和负责人由相关部门委派,但不应是该术语库研制开发的直
接参与者。
7.6.3.3 验收会议程序
正式验收应召开验收会议,并至少履行下列程序:
a) 主要设计人员作开发设计报告;
b) 主要设计人员回答验收人员的质疑;
c) 检查系统文件档案和各阶段工作的审查报告;
d) 审查测试报告;
e) 审查用户报告:
f) 审查查新报告;
g) 提出验收报告。
7.6.3.4 验收报告内容
正式验收应有参加验收人员签名认可的验收报告,内容至少包括:
a) 验收人员名单及分工;
b) 设计依据、目标和达到的水平;
c) 审查验收的项目及检查结果;
d) 提交审查的设计、试验资料目录和有关的原始资料;
e) 结论性意见;
f) 不同意见备忘录。
术语库投入运行时,应向用户提供操作手册、使用手册、维护手册、数据字典等文件,并制定必要的
(运行)管理守则。
数据可以用交互方式和(或)批处理方式输入。
应有扩展的词处理功能,可用于输入、编辑、修改和校正数据。数据输入和修改应进行有效性校验
(例如字段名、字段内容、字段顺序的校验)。
数据确认和校验主要包括:
GB/T 13725—2019
a) 双词条校验:确认一个词条只存储一次;
b) 一致性校验:确认相互依赖的词条是否遵照预先规定的条件;
c) 拼写校验:确认所有的词条是否都遵照拼写规则;
d) 图像校验:输入字段时用掩码(mask) 检验字符类型;
e) 完整性校验:检查数据是否出现在所要求的位置;
f) 格式校验:确认数据是否符合某种特殊的编排;
g) 真实性校验:确认一个值是否符合特殊准则;
h) 有效性校验:基于已知条件或给定信息或结果的限制关系。
8.1.3 字段内容的自动或半自动生成或修改
字段内容的自动或半自动生成,解释如下:
——半自动生成:根据在数据输入和编辑过程中已输入原始数据的缩略形式产生其相应的完整
形式。
——全自动生成:字段码和字段内容均可以全自动生成。当输入字段码时,某个内容会自动地输
入,或者字段码和字段内容(如学科领域信息)在一些或所有的记录中自动地输入。
无论是半自动生成还是全自动生成都能在术语库的所有或有选择的记录中改变一个字段的某个特
定内容。
术语库中数据检索的典型目标是检索一个或多个独立的术语和相应的信息(对应词、定义、语境
等)。独立术语的检索常与其他检索相结合,如语言特性检索和学科领域检索。检索术语可以是单词术
语或者是多词术语。还应考虑拼音文字中有词形变化形式的检索技术。能按类别检索属于某一确定专
业领域的所有术语。检索出的数据能在屏幕上显示,打印或存储到记录媒体上。
术语库应具备交互式检索功能。它可以是命令驱动、菜单驱动或是由用户填写某种表格进行检索
的方式驱动,三者可以配合使用。
应根据需要设计批量检索功能。批量检索适用于检索大量的术语。
能指明不能检索和限制访问的数据,明确访问或检索的权限要求。
能浏览术语库,按不同的术语条目顺序进行浏览。
能运用逻辑运算符(AND,OR)
或位置操作进行检索,具有精确匹配检索功能,并有左、右截断、遮
蔽检索、模糊检索等功能。
GB/T 13725—2019
应具有子集检索功能
应指明"非检索词”,并为特殊字段(例如某一语种所有信息字段)定义"非检索词"。
示例1:
在一个多语种术语库中定义英语词“and”作为一个"非检索词”,就会使得丹麦语的“and(鸭)"不能单独检索。
还应考虑某些词在特定领域内的特殊用途。
示例2:
数学或逻辑学中"与”"或""非"就不能定义为非检索词。
8.2.9 辨别拼音文字的大、小写字母,连字符和变音符
检索时,能根据需要区别或不区别拼音文字的大、小写字母,连字符,变音符,模糊音等。
能辅助用户选择使用术语库的各种功能,指示系统当前的工作状态,通过显示、可视化等方式,展现
术语库检索操作的中间结果和最终结果,表现术语库数据的内在逻辑、词条含义以及语义关系等。但要
注意检索进行过程中应避免无效的显示。
排序要求包括:
a)
能按汉语拼音、外文字母顺序或系统顺序编排目录。系统顺序的目录可以根据其概念在概念
体系中的位置排序而产生。
b)
能根据几种规则排序,例如产生一个先按学科,后(在一个学科内)按术语的汉语拼音、外文字
母顺序排序的术语目录。
能输出术语库中的所有数据或数据子集,导出到存储介质中。
应为用户定义不同的访问权限,建立不同用户的读、写保护。访问权限主要包括:
——访问级:只有知道口令的用户才能访问术语库;
—
记录级:某些用户(例如外部用户)不能访问那些仍在修订过程中的记录;但允许一些用户访
问,而不能改动数据;
——字段级:外部用户不能访问字段中内部编辑者的注释;
——字符级:如果术语库可为外部用户提供联机检索,印刷编码应被禁止;
——授权级:应能防止未受权用户将术语库部分或全部拷贝到可以传递的媒体上。
数据交换时,应对元数据、存储媒体、文件和记录格式、权限要求以及字符集等进行描述或说明。
GB/T 13725—2019
术语库系统的管理与维护应至少包括如下内容:
a) 术语库数据管理;
b) 术语库硬件系统管理;
c) 术语库软件系统管理;
d) 术语库用户管理;
e) 术语库安全管理;
f) 术语库机房环境管理。
10.1 术语库能进行文本交换或相互提供咨询服务。
10.2 术语库能进行载文磁(光)媒体交换,交换格式应符合GB/T 18155 的规定。
10.3
系统间的数据通信协议、通信接口、数据传输、交换信息格式等应符合国家或国际相关标准。
GB/T 13725—2019
(规范性附录)
术语库的实体-关系图
术语库中各项数据之间存在着1对1(1:1)和1对多(1:n)
的相互关系,其间呈现了明显的层级
结构,如图 A.1 所示。
style="width:10.30694in;height:10.86042in" />style="width:0.14003in;height:0.13332in" />
符号说明:
| style="width:0.72656in" />style="height:0.73986in" /> |
|-------------------------------------------------------------------------------------------|
实体;
style="width:1.03336in;height:0.8258in" />
联系
图 A.1 术语库的实体-关系图
更多内容 可以 GB-T 13725-2019 建立术语数据库的一般原则与方法. 进一步学习